智能论文笔记

Conversion of Acoustic Signal (Speech) Into Text By Digital Filter using Natural Language Processing

Abhiram Katuri , Sindhu Salugu , Gelli Tharuni , Challa Sri Gouri

分类：人工智能

2022-09-09

日常生活中交流最关键的方面之一是言语识别。基于自然语言处理的语音识别是将一个系统转换为另一个系统的基本要素之一。在本文中，我们创建了一个界面，将语音和其他听觉输入转换为使用数字过滤器的文本。与这种转换的许多方法相反，语言缺陷偶尔出现，性别识别，语音识别，失败（无法识别声音）和性别识别失败。由于涉及技术问题，我们开发了一个程序，该程序充当调解人，以防止启动软件问题，以消除这种小偏差。其计划的MFCC和HMM与其AI系统同步。结果，已经避免了技术错误。

translated by 谷歌翻译

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

Sindhu B Hegde , K R Prajwal , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉 | 自然语言处理

2022-09-01

在这项工作中，我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是，我们的方法（i）不仅限于固定数量的扬声器，（ii）并未明确对域或词汇构成约束，并且（iii）涉及在野外记录的视频，反对实验室环境。该任务提出了许多挑战，关键是，所需的目标语音的许多功能（例如语音，音调和语言内容）不能完全从无声的面部视频中推断出来。为了处理这些随机变化，我们提出了一种新的VAE-GAN结构，该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下，我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明，我们的优于所有基线的差距很大。此外，我们的网络可以在特定身份的视频上进行微调，以实现与单扬声器模型相当的性能，该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究，以分析我们体系结构不同模块的效果。我们还提供了一个演示视频，该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果： -合成}}

translated by 谷歌翻译

HTML版本

Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors

Sindhu B Hegde , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉

2022-08-17

在本文中，我们探讨了一个有趣的问题，即从$ 8 \ times8 $ Pixel视频序列中获得什么。令人惊讶的是，事实证明很多。我们表明，当我们处理此$ 8 \ times8 $视频带有正确的音频和图像先验时，我们可以获得全长的256 \ times256 $视频。我们使用新颖的视听UPPRAPLING网络实现了极低分辨率输入的$ 32 \ times $缩放。音频先验有助于恢复元素面部细节和精确的唇形，而单个高分辨率目标身份图像先验为我们提供了丰富的外观细节。我们的方法是端到端的多阶段框架。第一阶段会产生一个粗糙的中间输出视频，然后可用于动画单个目标身份图像并生成逼真，准确和高质量的输出。我们的方法很简单，并且与以前的超分辨率方法相比，表现非常好（$ 8 \ times $改善了FID得分）。我们还将模型扩展到了谈话视频压缩，并表明我们在以前的最新时间上获得了$ 3.5 \ times $的改进。通过广泛的消融实验（在论文和补充材料中）对我们网络的结果进行了彻底的分析。我们还在我们的网站上提供了演示视频以及代码和模型：\ url {http://cvit.iiit.ac.in/research/project/projects/cvit-projects/talking-face-vace-video-upsmpling}。

translated by 谷歌翻译

An Empirical Comparison of Explainable Artificial Intelligence Methods for Clinical Data: A Case Study on Traumatic Brain Injury

Amin Nayebi , Sindhu Tipirneni , Brandon Foreman , Chandan K. Reddy , Vignesh Subbian

分类：人工智能 | 机器学习

2022-08-13

围绕深度学习算法的长期挑战是解开和了解它们如何做出决定。可解释的人工智能（XAI）提供了方法，以解释算法的内部功能及其决策背后的原因，这些方式以人类用户的解释和可理解的方式提供了解释。。到目前为止，已经开发了许多XAI方法，并且对这些策略进行比较分析似乎是为了辨别它们与临床预测模型的相关性。为此，我们首先实施了两个使用结构化表格和时间序列生理数据的创伤性脑损伤（TBI）（TBI）的预测模型。使用六种不同的解释技术来描述本地和全球水平的预测模型。然后，我们对每种策略的优点和缺点进行了批判性分析，突出了对使用这些方法感兴趣的研究人员的影响。根据几种XAI特征，例如可理解性，忠诚度和稳定性，将实施的方法相互比较。我们的发现表明，Shap是最稳定的，其保真度最高，但缺乏可理解性。另一方面，锚是最可理解的方法，但仅适用于表格数据而不是时间序列数据。

translated by 谷歌翻译

Effective Gesture Based Framework for Capturing User Input

Pabbathi Sri Charan , Saksham Gupta , Satvik Agrawal , Gadupudi Sahithi Sindhu

分类：人工智能

2022-08-01

当今的计算机不仅限于笔记本电脑和台式机。手机和笔记本电脑等移动小工具也可以利用它。但是，在过去50年中没有更改的一个输入设备是QWERTY键盘。通过传感器技术和人工智能，虚拟键盘用户可以在任何表面上输入任何表面。在这项研究中，我们使用图像处理的想法来创建一个应用程序，以使用新颖的框架来查看计算机键盘，该框架可以精确地检测手势，同时也具有可持续性且在财务上可行。相机用于捕获键盘图像和手指动作，后来充当虚拟键盘。此外，本研究还描述了一种接受手指坐标为输入的可见虚拟小鼠。该系统具有降低外围成本的直接好处，减少由于外部设备而产生的电子废物，并为无法使用传统键盘和鼠标的人们提供可访问性。

translated by 谷歌翻译

XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence

Ming Zhu , Aneesh Jain , Karthik Suresh , Roshan Ravindran , Sindhu Tipirneni , Chandan K. Reddy

分类：人工智能 | 机器学习

2022-06-16

机器学习的最新进展显着改善了对源代码数据的理解，并在许多下游任务上取得了良好的表现。像GitHub这样的开源存储库使用丰富的未标记代码数据启用此过程。但是，缺乏高质量标记的数据在很大程度上阻碍了几个相关任务的进度，例如程序翻译，摘要，合成和代码搜索。本文介绍了XLCOST，跨语言代码摘要数据集，这是一种用于跨语言代码智能的新基准数据集。我们的数据集包含来自8种语言（7种常用编程语言和英语）的细粒并行数据，并支持10个跨语性代码任务。据我们所知，就规模和语言数量而言，它是源代码的最大并行数据集。我们还为每个任务提供了几种最先进的基线模型的性能。我们认为，这个新数据集可能是研究界的宝贵资产，并促进了跨语法代码智能的新方法的开发和验证。

translated by 谷歌翻译

StructCoder: Structure-Aware Transformer for Code Generation

Sindhu Tipirneni , Ming Zhu , Chandan K. Reddy

分类：机器学习

2022-06-10

最近，人们对使用深度学习自动化软件工程任务的兴趣激增。这项工作解决了代码生成问题的问题，该问题是在其中以不同的语言或自然语言描述生成目标代码的目标代码。代码生成的大多数最先进的深度学习模型都使用主要是为自然语言设计的培训策略。但是，理解和生成代码需要对代码语法和语义的更严格理解。通过这种动机，我们开发了一个编码器变压器模型，其中训练编码器和解码器分别识别源和目标代码中的语法和数据流。我们不仅通过利用源代码的语法树和数据流程图来使编码器结构感知，而且我们还确保我们的解码器通过引入两个辅助任务来保留目标代码的语法和数据流：路径预测和数据流预测。据我们所知，这是第一项引入结构感知的变压器解码器，以通过对目标语法和数据流进行建模来增强生成代码的质量。所提出的结构编码器模型在CodexGlue基准测试中实现了代码翻译和文本对代码生成任务的最新性能。

translated by 谷歌翻译